Анализ сообществ в социальной сети вконтакте с применением графов¶

Резюме¶

В этой статье мы будем анализировать участников оффициальной группы вконтакте КАИ с применением теории графов. Для анализа взяты участники сообщества с открытыми профилями.

Структура¶

  • общие характеристики сообщества
  • распределение признаков
  • топ групп
  • выделение популярных участников
  • выделение подгрупп
    • распределение признаков
    • топ групп
  • Bonus: Боты
  • Послесловие
    • Скрипт сбора данных
    • Что можно сделать еще

Общие характеристики сообщества¶

Представим сообщество вконтакте в виде точек и стрелочек между ними, где точка — это человек, а стрелочка — это подписка. Если два человека дружат, то это двусторонняя стрелочка.

Количество открытых профилей сообщества: 20420
Общее количество связей между участниками: 266151
Среднее количество друзей внутри сообщества: 13.033839373163564
Медианное количество друзей внутри сообщества: 4.0

Компоненты связности - это группы пользователей, которые связаны внутри, но не связаны между собой.

Распределение размеров компонент cсвязности:
количество таких компонент
Кол-во учатников внутри компоненты
1 5526
2 105
3 10
4 5
5 3
6 1
7 1
12 1
15 1
21 1
51 1
14507 1

Видим, что людей без друзей внутри сообщества 5526
Самая большая компонента включает 14507 участников

Распределение признаков¶

city - город
sex - пол
byear - год рождения
occupation - занятость
occupation_type - тип занятости
relation - отношения
alcohol - отношение к алкоголю 1(резко негативное)-5(резко положительное)
inspired_by - вдохновлен
langs - языки
life_main - главное в жизни
people_main - главное в людях
political - полит. взгляды
religion - религия
smoking - отношение к курению 1(резко негативное)-5(резко положительное)
followers_count - количество подписчиков
first_name - имя
last_name - фамилия
status - статус
main_group_likes - кол-во поставленных лайков в основной группе
got_likes_from_members - кол-во лайков, полученных от участников основной группы
got_likes - общее кол-во полученных лайков

  0%|                                                                                         | 0/2416 [00:00<…
DataPrep Report
DataPrep Report Overview
Variables ≡
city sex byear occupation occupation_type relation alcohol inspired_by langs life_main people_main political religion smoking followers_count first_name last_name status main_group_likes got_likes_from_members got_likes
Interactions Correlations Missing Values

Overview

Dataset Statistics

Number of Variables 21
Number of Rows 20420
Missing Cells 195823
Missing Cells (%) 45.7%
Duplicate Rows 804
Duplicate Rows (%) 3.9%
Total Size in Memory 17.9 MB
Average Row Size in Memory 921.1 B
Variable Types
  • Categorical: 16
  • Numerical: 5

Dataset Insights

city has 5849 (28.64%) missing values Missing
byear has 10988 (53.81%) missing values Missing
occupation has 7842 (38.4%) missing values Missing
occupation_type has 7842 (38.4%) missing values Missing
relation has 11633 (56.97%) missing values Missing
alcohol has 19113 (93.6%) missing values Missing
inspired_by has 19634 (96.15%) missing values Missing
langs has 15238 (74.62%) missing values Missing
life_main has 18542 (90.8%) missing values Missing
people_main has 18424 (90.23%) missing values Missing
political has 18781 (91.97%) missing values Missing
religion has 19151 (93.79%) missing values Missing
smoking has 18470 (90.45%) missing values Missing
followers_count has 2060 (10.09%) missing values Missing
status has 2195 (10.75%) missing values Missing
followers_count is skewed Skewed
main_group_likes is skewed Skewed
got_likes_from_members is skewed Skewed
got_likes is skewed Skewed
Dataset has 804 (3.94%) duplicate rows Duplicates
city has a high cardinality: 906 distinct values High Cardinality
occupation has a high cardinality: 3632 distinct values High Cardinality
inspired_by has a high cardinality: 632 distinct values High Cardinality
langs has a high cardinality: 335 distinct values High Cardinality
religion has a high cardinality: 235 distinct values High Cardinality
first_name has a high cardinality: 2797 distinct values High Cardinality
last_name has a high cardinality: 9987 distinct values High Cardinality
status has a high cardinality: 6874 distinct values High Cardinality
alcohol has constant length 3 Constant Length
smoking has constant length 3 Constant Length
main_group_likes has 19649 (96.22%) zeros Zeros
got_likes_from_members has 15860 (77.67%) zeros Zeros
got_likes has 13833 (67.74%) zeros Zeros
  • 1
  • 2
  • 3
  • 4

Variables


city

categorical

Approximate Distinct Count 906
Approximate Unique (%) 6.2%
Missing 5849
Missing (%) 28.6%
Memory Size 1046836
  • The largest value (Kazan) is over 8.9 times larger than the second largest value (Moscow)

Length

Mean 6.7238
Standard Deviation 3.3302
Median 5
Minimum 0
Maximum 28

Sample

1st row Saint Petersburg
2nd row Kazan
3rd row Kazan
4th row Kazan
5th row Saint Petersburg

Letter

Count 96591
Lowercase Letter 80830
Space Separator 1021
Uppercase Letter 15761
Dash Punctuation 217
Decimal Number 3
  • The largest value (kazan) is over 8.9 times larger than the second largest value (moscow)

sex

categorical

Approximate Distinct Count 2
Approximate Unique (%) 0.0%
Missing 61
Missing (%) 0.3%
Memory Size 1401308

Length

Mean 3.8299
Standard Deviation 0.9855
Median 3
Minimum 3
Maximum 5

Sample

1st row woman
2nd row woman
3rd row woman
4th row woman
5th row man

Letter

Count 77973
Lowercase Letter 77973
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (man, woman) take over 50.0%

byear

numerical

Approximate Distinct Count 100
Approximate Unique (%) 1.1%
Missing 10988
Missing (%) 53.8%
Infinite 0
Infinite (%) 0.0%
Memory Size 150912
Mean 1991.6378
Minimum 1901
Maximum 2009
Zeros 0
Zeros (%) 0.0%
Negatives 0
Negatives (%) 0.0%
  • byear is skewed left (γ1 = -3.1996)

Quantile Statistics

Minimum 1901
5-th Percentile 1970
Q1 1987
Median 1995
Q3 2001
95-th Percentile 2005
Maximum 2009
Range 108
IQR 14

Descriptive Statistics

Mean 1991.6378
Standard Deviation 14.9817
Variance 224.4514
Sum 1.8785e+07
Skewness -3.1996
Kurtosis 14.5399
Coefficient of Variation 0.007522
  • byear is not normally distributed (p-value 1.5058457937036851e-05)
  • byear has 365 outliers

occupation

categorical

Approximate Distinct Count 3632
Approximate Unique (%) 28.9%
Missing 7842
Missing (%) 38.4%
Memory Size 2300245
  • The largest value (КНИТУ-КАИ им. А. Н. Туполева) is over 3.29 times larger than the second largest value (КГТУ-КАИ им. Туполева)

Length

Mean 25.2722
Standard Deviation 12.4649
Median 28
Minimum 1
Maximum 255

Sample

1st row СПбГЭТУ (ЛЭТИ)
2nd row Центр композитных ...
3rd row Geometrium • совре...
4th row Преподаватель
5th row АвтоРадио, Макроми...

Letter

Count 11074
Lowercase Letter 7751
Space Separator 39375
Uppercase Letter 3323
Dash Punctuation 8041
Decimal Number 728
  • occupation contains many words: 5668 words

occupation_type

categorical

Approximate Distinct Count 3
Approximate Unique (%) 0.0%
Missing 7842
Missing (%) 38.4%
Memory Size 924084
  • The largest value (university) is over 3.1 times larger than the second largest value (work)

Length

Mean 8.4683
Standard Deviation 2.5747
Median 10
Minimum 4
Maximum 10

Sample

1st row university
2nd row work
3rd row work
4th row work
5th row work

Letter

Count 106514
Lowercase Letter 106514
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (university, work) take over 50.0%
  • The largest value (university) is over 3.1 times larger than the second largest value (work)

relation

categorical

Approximate Distinct Count 9
Approximate Unique (%) 0.1%
Missing 11633
Missing (%) 57.0%
Memory Size 1205713
  • The largest value (не указано) is over 4.7 times larger than the second largest value (женат/замужем)

Length

Mean 11.8631
Standard Deviation 3.222
Median 10
Minimum 10
Maximum 22

Sample

1st row не женат/не замуже...
2nd row не указано
3rd row женат/замужем
4th row женат/замужем
5th row не указано

Letter

Count 0
Lowercase Letter 0
Space Separator 8477
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

alcohol

categorical

Approximate Distinct Count 5
Approximate Unique (%) 0.4%
Missing 19113
Missing (%) 93.6%
Memory Size 88876

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 2.0
2nd row 3.0
3rd row 1.0
4th row 3.0
5th row 3.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 2614
  • alcohol has words of constant length

inspired_by

categorical

Approximate Distinct Count 632
Approximate Unique (%) 80.4%
Missing 19634
Missing (%) 96.2%
Memory Size 125758
  • The largest value (Музыка) is over 1.71 times larger than the second largest value (Люди)

Length

Mean 18.528
Standard Deviation 26.8408
Median 13
Minimum 1
Maximum 511

Sample

1st row свобода
2nd row То, что расширяет ...
3rd row Мое солнышко )
4th row Природа
5th row Доченьки

Letter

Count 736
Lowercase Letter 607
Space Separator 1322
Uppercase Letter 129
Dash Punctuation 12
Decimal Number 32

langs

categorical

Approximate Distinct Count 335
Approximate Unique (%) 6.5%
Missing 15238
Missing (%) 74.6%
Memory Size 678690
  • The largest value (Русский) is over 9.06 times larger than the second largest value (Русский,English)

Length

Mean 10.7206
Standard Deviation 9.5791
Median 7
Minimum 1
Maximum 307

Sample

1st row Русский
2nd row Русский
3rd row Русский,English,Та...
4th row Русский,English
5th row Русский

Letter

Count 10225
Lowercase Letter 8749
Space Separator 78
Uppercase Letter 1476
Dash Punctuation 0
Decimal Number 0
  • The largest value (русский) is over 9.06 times larger than the second largest value (русскийenglish)

life_main

categorical

Approximate Distinct Count 8
Approximate Unique (%) 0.4%
Missing 18542
Missing (%) 90.8%
Memory Size 276874
  • The largest value (семья и дети) is over 1.59 times larger than the second largest value (саморазвитие)

Length

Mean 14.4574
Standard Deviation 3.6493
Median 12
Minimum 12
Maximum 22

Sample

1st row саморазвитие
2nd row семья и дети
3rd row семья и дети
4th row совершенствование ...
5th row семья и дети

Letter

Count 0
Lowercase Letter 0
Space Separator 2628
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (и) is over 1.62 times larger than the second largest value (дети)

people_main

categorical

Approximate Distinct Count 6
Approximate Unique (%) 0.3%
Missing 18424
Missing (%) 90.2%
Memory Size 323420
  • The largest value (доброта и честность) is over 2.8 times larger than the second largest value (юмор и жизнелюбие)

Length

Mean 18.2585
Standard Deviation 0.933
Median 19
Minimum 17
Maximum 19

Sample

1st row смелость и упорств...
2nd row юмор и жизнелюбие
3rd row юмор и жизнелюбие
4th row доброта и честност...
5th row доброта и честност...

Letter

Count 0
Lowercase Letter 0
Space Separator 3992
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (и) is over 2.09 times larger than the second largest value (доброта)

political

categorical

Approximate Distinct Count 9
Approximate Unique (%) 0.5%
Missing 18781
Missing (%) 92.0%
Memory Size 226629
  • The largest value (умеренные) is over 3.91 times larger than the second largest value (индифферентные)

Length

Mean 11.8182
Standard Deviation 3.0223
Median 11
Minimum 9
Maximum 20

Sample

1st row умеренные
2nd row умеренные
3rd row индифферентные
4th row монархические
5th row умеренные

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (умеренные) is over 3.91 times larger than the second largest value (индифферентные)

religion

categorical

Approximate Distinct Count 235
Approximate Unique (%) 18.5%
Missing 19151
Missing (%) 93.8%
Memory Size 171521
  • The largest value (Православие) is over 2.52 times larger than the second largest value (Ислам)

Length

Mean 11.5485
Standard Deviation 8.586
Median 11
Minimum 2
Maximum 98

Sample

1st row Православие
2nd row Не определены
3rd row Верю
4th row Крест
5th row Иудаизм

Letter

Count 320
Lowercase Letter 278
Space Separator 486
Uppercase Letter 42
Dash Punctuation 15
Decimal Number 39
  • The largest value (православие) is over 2.52 times larger than the second largest value (ислам)

smoking

categorical

Approximate Distinct Count 5
Approximate Unique (%) 0.3%
Missing 18470
Missing (%) 90.5%
Memory Size 132600

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 2.0
2nd row 4.0
3rd row 5.0
4th row 4.0
5th row 1.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 3900
  • smoking has words of constant length

followers_count

numerical

Approximate Distinct Count 2171
Approximate Unique (%) 11.8%
Missing 2060
Missing (%) 10.1%
Infinite 0
Infinite (%) 0.0%
Memory Size 293760
Mean 493.5958
Minimum 0
Maximum 20293
Zeros 71
Zeros (%) 0.3%
Negatives 0
Negatives (%) 0.0%
  • followers_count is skewed right (γ1 = 8.0263)

Quantile Statistics

Minimum 0
5-th Percentile 29
Q1 144
Median 279
Q3 515
95-th Percentile 1477
Maximum 20293
Range 20293
IQR 371

Descriptive Statistics

Mean 493.5958
Standard Deviation 914.0637
Variance 835512.4187
Sum 9.0624e+06
Skewness 8.0263
Kurtosis 95.2616
Coefficient of Variation 1.8518
  • followers_count is not normally distributed (p-value 6.570885793854987e-23)
  • followers_count has 1483 outliers

first_name

categorical

Approximate Distinct Count 2797
Approximate Unique (%) 13.7%
Missing 0
Missing (%) 0.0%
Memory Size 1450279
  • The largest value (DELETED) is over 4.44 times larger than the second largest value (Alexander)

Length

Mean 5.903
Standard Deviation 1.5723
Median 6
Minimum 2
Maximum 32

Sample

1st row Ekaterina
2nd row Elena
3rd row Antonina
4th row Natalya
5th row Ruslan

Letter

Count 120320
Lowercase Letter 90753
Space Separator 9
Uppercase Letter 29567
Dash Punctuation 82
Decimal Number 1
  • first_name contains many words: 2793 words
  • The largest value (deleted) is over 4.44 times larger than the second largest value (alexander)

last_name

categorical

Approximate Distinct Count 9987
Approximate Unique (%) 48.9%
Missing 0
Missing (%) 0.0%
Memory Size 1491428
  • The largest value () is over 15.98 times larger than the second largest value (Ivanov)

Length

Mean 7.7284
Standard Deviation 3.116
Median 8
Minimum 0
Maximum 34

Sample

1st row Lysenko
2nd row Elenovna
3rd row Andrevna
4th row Gafarova
5th row Skorpov

Letter

Count 157380
Lowercase Letter 138348
Space Separator 32
Uppercase Letter 19032
Dash Punctuation 174
Decimal Number 11
  • last_name contains many words: 9986 words

status

categorical

Approximate Distinct Count 6874
Approximate Unique (%) 37.7%
Missing 2195
Missing (%) 10.8%
Memory Size 2358691
  • The largest value () is over 232.72 times larger than the second largest value (...)

Length

Mean 14.5563
Standard Deviation 27.7872
Median 0
Minimum 0
Maximum 140

Sample

1st row
2nd row Да, Бендер такой. ...
3rd row
4th row
5th row Объединяю предприн...

Letter

Count 38816
Lowercase Letter 35583
Space Separator 34833
Uppercase Letter 3233
Dash Punctuation 998
Decimal Number 4647
  • The top 2 categories (, ...) take over 50.0%
  • status contains many words: 14724 words

main_group_likes

numerical

Approximate Distinct Count 39
Approximate Unique (%) 0.2%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 326720
Mean 0.1575
Minimum 0
Maximum 97
Zeros 19649
Zeros (%) 96.2%
Negatives 0
Negatives (%) 0.0%
  • main_group_likes is skewed right (γ1 = 30.5818)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 0
95-th Percentile 0
Maximum 97
Range 97
IQR 0

Descriptive Statistics

Mean 0.1575
Standard Deviation 2.2793
Variance 5.1954
Sum 3217
Skewness 30.5818
Kurtosis 1071.7971
Coefficient of Variation 14.4681
  • main_group_likes is not normally distributed (p-value 4.247091468276801e-25)
  • main_group_likes has 771 outliers

got_likes_from_members

numerical

Approximate Distinct Count 147
Approximate Unique (%) 0.7%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 326720
Mean 2.9308
Minimum 0
Maximum 504
Zeros 15860
Zeros (%) 77.7%
Negatives 0
Negatives (%) 0.0%
  • got_likes_from_members is skewed right (γ1 = 12.6024)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 0
95-th Percentile 13
Maximum 504
Range 504
IQR 0

Descriptive Statistics

Mean 2.9308
Standard Deviation 12.8667
Variance 165.5521
Sum 59846
Skewness 12.6024
Kurtosis 284.9709
Coefficient of Variation 4.3902
  • got_likes_from_members is not normally distributed (p-value 4.666220119257232e-25)
  • got_likes_from_members has 4560 outliers

got_likes

numerical

Approximate Distinct Count 745
Approximate Unique (%) 3.6%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 326720
Mean 43.9512
Minimum 0
Maximum 73049
Zeros 13833
Zeros (%) 67.7%
Negatives 0
Negatives (%) 0.0%
  • got_likes is skewed right (γ1 = 118.63)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 9
95-th Percentile 213
Maximum 73049
Range 73049
IQR 9

Descriptive Statistics

Mean 43.9512
Standard Deviation 546.2465
Variance 298385.2456
Sum 897484
Skewness 118.63
Kurtosis 15669.9964
Coefficient of Variation 12.4285
  • got_likes is not normally distributed (p-value 4.226926195717468e-25)
  • got_likes has 4176 outliers

Interactions

Correlations

Missing Values

Report generated with DataPrep

Топ групп¶

Группы, на которые подписаны наибольшее количество пользователей

кол-во подписанных участников
Название группы
КНИТУ-КАИ им. А.Н.Туполева 18229
Казань | Казань. Куда пойти? 5554
ВКазани Поймут | Казань 4547
MDK 3424
KANст 3117
Наука и Техника 3098
Интересная Казань 2808
Леонардо Дайвинчик 2752
Сарказм 2701
Казань | Татарстан | 116 2597
Студенческий спортивный клуб «КАИ-Зилант» 2512
Бот расписание занятий. КНИТУ-КАИ 2342
Новинки Музыки | Новая Музыка 2023 2342
Регион-116 | Казань 2203
Казань Онлайн | Главный Казанский Паблик 2185
Психология 2143
Хитрости жизни 1946
Палата №6 1944
Словарный запас 1940
Казань| РАБОТА 1913
Рифмы и Панчи 1880
4ch 1820
ВКонтакте 1801
Киномания - Лучшие фильмы 1791
Лайфхак 1775
Киномания ► Новинки кино 1755
КАЗАНЬ | Социальная группа 1729
Дирекция института КТЗИ, КНИТУ-КАИ, 7 здание 1708
Бесплатная Казань 1696
КНИТУ-КАИ (КГТУ им. А.Н. Туполева). ИРЭФ-ЦТ 1666

Выделение популярных участников¶

Выведем список самых популярных людей внутри сообщества:

first_name occupation followers_count status
0 Telman КНИТУ-КАИ им. А. Н. Туполева 786.0
1 Ilya Контур-КАИ 3570.0 пупупу
2 Yulia КНИТУ-КАИ им. А. Н. Туполева 947.0
3 Masha КНИТУ-КАИ им. А. Н. Туполева 449.0 руководитель ЦДМП♻️
4 Roman Студенческий совет ИКТЗИ КНИТУ-КАИ 694.0 Председатель студенческого совета ИКТЗИ при КН...
5 Nikita КНИТУ-КАИ им. А. Н. Туполева 755.0 триггер на конфетти
6 Muhammad RAP.TJ 481.0 Пусть друзья богатеют, а враги не беднеют, пот...
7 Roman КНИТУ-КАИ им. А. Н. Туполева 711.0 Изменить статус
8 Yanusik КНИТУ-КАИ им. А. Н. Туполева 608.0 Если хочешь плакать, то я буду плакать тоже
9 Eduard КНИТУ-КАИ (бывш. КГТУ-КАИ) им. А. Н. Туполева 1913.0 Каждый должен заниматься тем, что у него получ...
10 Nikita Одного дня prod 570.0 Inst: neketa__m
11 Nikita КНИТУ-КАИ им. А. Н. Туполева 884.0
12 Damir КНИТУ-КАИ им. А. Н. Туполева 310.0 ¯\_(ツ)_/¯
13 Alsu NaN 559.0
14 Elena NaN 539.0 inst:tarasovaaaaaa17
15 Danil NaN 522.0 inst : danil_garipov_
16 Adelina КНИТУ-КАИ им. А. Н. Туполева 855.0 ярче солнца ~
17 Tyoma КНИТУ-КАИ им. А. Н. Туполева 490.0
18 Valeria Университет Иннополис 693.0
19 Alexander КНИТУ-КАИ им. А. Н. Туполева 539.0 Пусть даже человек от природы и обладает прекр...
20 Misha КНИТУ-КАИ им. А. Н. Туполева 1261.0
21 Damir КНИТУ-КАИ им. А. Н. Туполева 554.0 Расскажу о себе\nза отдельную договоренность м...
22 Diana Студенческий совет ИКТЗИ КНИТУ-КАИ 607.0 Instagram: di_olegovna
23 Lilia Хоккейный клуб КАИ 687.0 🦋
24 Artur КНИТУ-КАИ им. А. Н. Туполева 299.0 Lettin' a new day begin
25 Nikita КНИТУ-КАИ им. А. Н. Туполева 457.0
26 Roman Университет Иннополис 550.0
27 Insaf КНИТУ-КАИ им. А. Н. Туполева 648.0 aut vincere, aut mori
28 Islam КНИТУ-КАИ им. А. Н. Туполева 339.0
29 Aydar КНИТУ-КАИ им. А. Н. Туполева 780.0 Создаем технологии, меняем жизнь

Выделение подгрупп¶

Для выделения подгрупп возьмём самую большую компоненту. С помощью магии выделяем подгруппы, в которых связь между людьми сильнее по сравнению с остальными людьми.

Плотность графа - количество связей/ количество связей если все со всеми дружат.
Например, если все дружат со всеми, то плотность=1, если никто ни с кем не дружит, плотность=0

Выведем список самых больших подгрупп:

sett размер медианное кол-во друзей плотность
0 {18792448, 58810371, 68853764, 5439493, 281395... 2738 7.0 0.004865
1 {105115654, 456241159, 370040840, 397312016, 3... 1364 15.0 0.015503
2 {166821899, 342474763, 194035728, 225013779, 2... 1177 16.0 0.019824
3 {305678337, 331235332, 252526596, 66318342, 19... 771 12.0 0.022526
4 {44539904, 458391553, 322768896, 7036929, 1136... 762 3.0 0.009671
5 {181161984, 559691786, 496506892, 190709776, 2... 740 10.0 0.022914
6 {47558658, 40460297, 85794826, 97140747, 19686... 669 6.0 0.014124
7 {138432523, 694749198, 185620499, 93790232, 12... 657 14.0 0.029534
8 {50675724, 129102865, 67885073, 194024467, 103... 383 10.0 0.035768
9 {213336064, 653652994, 315289604, 475541509, 1... 333 13.0 0.054959
10 {26128384, 67939329, 579237889, 74857473, 2935... 314 4.5 0.020014
11 {205287936, 68098561, 146292740, 35025413, 131... 251 8.0 0.041562
12 {321437184, 140323849, 58514441, 175745547, 32... 216 12.0 0.073579
13 {251472384, 252143105, 88900112, 393142801, 74... 130 5.0 0.055575
14 {468468992, 481160704, 463922434, 474947586, 4... 94 43.5 0.410890
15 {339398144, 207081728, 233431043, 277325577, 1... 91 6.0 0.078144
16 {550611970, 445061636, 490739460, 395251462, 1... 76 3.0 0.061228
17 {469649923, 53526280, 193011214, 207200020, 20... 72 8.0 0.133998
18 {474970624, 307093761, 459305990, 378405639, 4... 70 5.5 0.122360
19 {113710720, 161090312, 233216779, 159030284, 1... 59 9.0 0.175921
20 {174922752, 266934277, 176344200, 203775881, 2... 51 11.0 0.210196
21 {135623042, 83879940, 67545349, 65911433, 5815... 46 6.0 0.159420
22 {197310471, 195369362, 136420628, 320902551, 3... 41 5.0 0.171951
23 {381280391, 21585545, 183891723, 290834703, 21... 36 9.0 0.263492
24 {176158467, 172639622, 254509450, 265091469, 7... 35 6.0 0.178151
25 {50345730, 119704452, 97541638, 47275911, 1657... 34 9.0 0.267380
26 {33303744, 4524354, 1950980, 14471558, 3175776... 27 4.0 0.253561
27 {110651651, 427384965, 241011718, 134395129, 1... 27 5.0 0.213675
28 {134661891, 81720589, 252468109, 36884431, 609... 26 4.5 0.215385
29 {134375360, 324886211, 142577034, 756929742, 1... 25 8.0 0.356667
30 {137177472, 31358210, 538875844, 287201736, 18... 25 3.0 0.196667
31 {139092032, 112361026, 471537030, 96093639, 44... 25 7.0 0.283333
32 {446442243, 145658825, 172497291, 144088782, 3... 22 7.0 0.344156
33 {135952773, 166146502, 189113157, 152836168, 1... 22 3.0 0.142857
34 {166828481, 226064196, 118687940, 467823687, 1... 22 10.5 0.463203

Распределение признаков¶

Сравним 5 самых больших подгрупп

DataPrep.EDA Report
Difference Overview
0_subgroup 1_subgroup 2_subgroup 3_subgroup 4_subgroup
Number of Variables 22 22 22 22 22
Number of Rows 2738 1364 1177 771 762
Missing Cells 24750 12982 11348 7436 6505
Missing Cells (%) 41.1% 43.3% 43.8% 43.8% 38.8%
Duplicate Rows 2 0 0 0 2
Duplicate Rows (%) 0.1% 0.0% 0.0% 0.0% 0.3%
Total Size in Memory 556.5 KB 277.4 KB 243.8 KB 154.7 KB 153.1 KB
Average Row Size in Memory 553.8 KB 276.1 KB 242.6 KB 154.0 KB 152.3 KB
Variable Types
  • Categorical: 17
  • Numerical: 5
  • Categorical: 17
  • Numerical: 5
  • Categorical: 17
  • Numerical: 5
  • Categorical: 17
  • Numerical: 5
  • Categorical: 18
  • Numerical: 4
0_subgroup
1_subgroup
2_subgroup
3_subgroup
4_subgroup

Number of plots per page:

city
sex
byear
occupation
occupation_type
relation
alcohol
inspired_by
langs
life_main
people_main
political
religion
smoking
followers_count
first_name
last_name
status
main_group_likes
got_likes_from_members
got_likes
subgroup

Видим, что в нулевой подгруппе много стариков примерно 85-90 года рождения. В четвертой подгруппе много работяг, столько же сколько и учащихся. Также в этой подгруппе, больше женщин, в остальных наоборот. Медиана примерно 1985 года рождения.

Топ подгрупп¶

Теперь посмотрим топ подписок в разных подгруппах

Общих групп: 10 
Общие группы: {'ВКазани Поймут | Казань', 'Сарказм', 'Регион-116 | Казань', 'Казань | Казань. Куда пойти?', 'КНИТУ-КАИ им. А.Н.Туполева', 'MDK', 'Наука и Техника', 'Казань | Татарстан | 116', 'Новинки Музыки | Новая Музыка 2023', 'Интересная Казань'}
0 1 2 3 4
Топ групп\Номер подгруппы
0 Казань Онлайн | Главный Казанский Паблик KANст Дирекция института КТЗИ, КНИТУ-КАИ, 7 здание КНИТУ-КАИ (КГТУ им. А.Н. Туполева). ИРЭФ-ЦТ Бесплатная Казань
1 КАЗАНЬ | Социальная группа Студенческий спортивный клуб «КАИ-Зилант» Студенческий совет ИКТЗИ КНИТУ-КАИ ИРЭТ (ИРЭФ-ЦТ) Казань Онлайн | Главный Казанский Паблик
2 Новости про Казань | Татарстан Бот расписание занятий. КНИТУ-КАИ KANст KANст Психология
3 Бесплатная Казань Мемфабрика Бот расписание занятий. КНИТУ-КАИ Бот расписание занятий. КНИТУ-КАИ Работа в Казани
4 Science|Наука Леонардо Дайвинчик Студенческий спортивный клуб «КАИ-Зилант» Студенческий спортивный клуб «КАИ-Зилант» КАЗАНЬ | Социальная группа
5 Идеи дизайна интерьера Рифмы и Панчи Мемуары ценителей научных мемов Леонардо Дайвинчик Новости про Казань | Татарстан
6 Психология Мемуары ценителей научных мемов Reddit Рифмы и Панчи Республика Татарстан
7 Палата №6 4ch Леонардо Дайвинчик 4ch Барахолка Казань
8 Киномания - Лучшие фильмы ПОЗОР Рифмы и Панчи ПОЗОР Город Казань
9 Подслушано в КАИ Овсянка, сэр! 4ch Мемуары ценителей научных мемов Казань| РАБОТА
10 Вокруг света Reddit ПОЗОР IGM Министерство по делам молодежи РТ
11 Шедевры рекламы MARVEL/DC Цитаты преподавателей КАИ Reddit Психология отношений
12 Лепра КБ Додо Пицца Казань Овсянка, сэр! Подслушано Казань
13 Хитрости жизни Словарный запас КБ MARVEL/DC Казань. Куда пойти завтра? | Казань | Афиша
14 Vandrouki | Путешествия почти бесплатно (RU) Цитаты преподавателей КАИ IGM Копицентр "КопиКонь" Enter Казань
15 Food.ru — Главная кухня страны Бот Максим Овсянка, сэр! Словарный запас Книги
16 E.squire Лайфхак Словарный запас (EN) КБ Рецепты
17 Казань. Куда пойти завтра? | Казань | Афиша На Случай Важных Переговоров ВКонтакте Аниме Вокруг света
18 Книги Смейся до слёз :D Словарный запас ВКонтакте Радуга Вкуса | Казань | Доставка еды
19 ТИПИЧНАЯ КАЗАНЬ IGM MARVEL/DC НЕНОРМАЛЬНО Омар Хайям и другие великие философы
20 Киномания ► Новинки кино Хитрости жизни WebM 2.0 Лайфхак Работа в Казани | Вакансии
21 Интерьер и декор Словарный запас (EN) На Случай Важных Переговоров NR ВКонтакте
22 Подслушано – Здесь говорят о тебе НЕНОРМАЛЬНО ачё) На Случай Важных Переговоров Хитрости жизни
23 Корпорация зла Я тебя хочу На приеме у Шевцова WebM 2.0 ТИПИЧНАЯ КАЗАНЬ
24 Литература | Великие поэты Додо Пицца Казань NR СТЫД Работа Казань | Вакансии
25 Cook Good - лучшие рецепты Палата №6 Библиотека программиста Додо Пицца Казань Дети в Казани: куда пойти в Казани
26 Школа ремонта Казань| РАБОТА Подслушано общага #3 КНИТУ-КАИ Бот Максим Татар-информ
27 Дневник успеха ВКонтакте Лентач Татарлары | Татарлар | Татары КАЗАНЬ | Народные новости
28 AliExpress NR Татарлары | Татарлар | Татары Мой Компьютер Бесплатный
29 Интересные факты Татарлары | Татарлар | Татары $$$ DANK MEMES $$$ AYY LMAO $$$ Физика для 2.7банов Литература | Великие поэты
30 Психология отношений МХК Netflix Палата №6 Киномания ► Новинки кино
31 Барахолка Казань Всратые Авиаконструкторы казанские мемы на каждый день Netflix Словарный запас
32 Фабрика идей СТЫД отчислено MORGENSHTERN Казань | Бесплатно | Конкурсы
33 AUTO Netflix Хитрости жизни $$$ DANK MEMES $$$ AYY LMAO $$$ Интересные факты
34 Подслушано Казань МЕМЫ decide-career.com - работа в it Видео категории Б Дневник успеха
35 Дети в Казани: куда пойти в Казани Киномания ► Новинки кино околоинтеллектуальные мемы ачё) Отдам БЕСПЛАТНО Казань
36 Smart Money | Бизнес журнал Физика для 2.7банов Палата №6 Я тебя хочу КАЗАНЬ | ПУСТЬ ГОВОРЯТ
37 ADME А ты знал? МХК Смейся до слёз :D Женские секреты
38 Казань| РАБОТА КиноКайф - Лучшие фильмы Лайфхак МЕМЫ Science|Наука
39 5 интересных фактов околоинтеллектуальные мемы Смейся до слёз :D Черный юмор БИМ-радио Казань

Легко заметить, что сообществ, которых нет в нулевой и четвертой подгруппе, часто встречаются в оставшихся.
Уберем из сравнения нулевую и четвертую подгруппу.

Общих групп: 33 
Общие группы: {'Словарный запас', 'Додо Пицца Казань', 'ВКонтакте', 'Регион-116 | Казань', 'Рифмы и Панчи', 'ПОЗОР', 'Смейся до слёз :D', 'Бот расписание занятий. КНИТУ-КАИ', 'Казань | Татарстан | 116', 'Татарлары | Татарлар | Татары', 'Палата №6', 'Reddit', 'КБ', '4ch', 'КНИТУ-КАИ им. А.Н.Туполева', 'NR', 'Мемуары ценителей научных мемов', 'MDK', 'Лайфхак', 'Новинки Музыки | Новая Музыка 2023', 'Интересная Казань', 'Сарказм', 'Овсянка, сэр!', 'Казань | Казань. Куда пойти?', 'IGM', 'MARVEL/DC', 'KANст', 'Студенческий спортивный клуб «КАИ-Зилант»', 'Наука и Техника', 'Netflix', 'На Случай Важных Переговоров', 'ВКазани Поймут | Казань', 'Леонардо Дайвинчик'}
1 2 3
Топ групп\Номер подгруппы
0 Мемфабрика Дирекция института КТЗИ, КНИТУ-КАИ, 7 здание КНИТУ-КАИ (КГТУ им. А.Н. Туполева). ИРЭФ-ЦТ
1 Цитаты преподавателей КАИ Студенческий совет ИКТЗИ КНИТУ-КАИ ИРЭТ (ИРЭФ-ЦТ)
2 Бот Максим Цитаты преподавателей КАИ Копицентр "КопиКонь"
3 Хитрости жизни Словарный запас (EN) Аниме
4 Словарный запас (EN) WebM 2.0 НЕНОРМАЛЬНО
5 НЕНОРМАЛЬНО ачё) WebM 2.0
6 Я тебя хочу На приеме у Шевцова СТЫД
7 Казань| РАБОТА Библиотека программиста Бот Максим
8 МХК Подслушано общага #3 КНИТУ-КАИ Мой Компьютер
9 Всратые Авиаконструкторы Лентач Физика для 2.7банов
10 СТЫД $$$ DANK MEMES $$$ AYY LMAO $$$ MORGENSHTERN
11 МЕМЫ казанские мемы на каждый день $$$ DANK MEMES $$$ AYY LMAO $$$
12 Киномания ► Новинки кино отчислено Видео категории Б
13 Физика для 2.7банов Хитрости жизни ачё)
14 А ты знал? decide-career.com - работа в it Я тебя хочу
15 КиноКайф - Лучшие фильмы околоинтеллектуальные мемы МЕМЫ
16 околоинтеллектуальные мемы МХК Черный юмор

Bonus: Боты¶

Выведем одну из компонент связности и посчитаем плотность:

Плотность графа: 0.9898039215686274

Плотность графа близка к единице. Кажется - это очень дружная и обособленная компания, либо боты.

Давайте посмотрим на какие группы они подписаны:

кол-во
Название группы
Авторынок Луганск Донецк ДНР ЛНР 92
Вкратце | Тула! 51
Наша Балашиха 51
Барахолка Рязань Объявления Куплю Продам 51
Барахолка Электросталь Ногинск Объявления 51
Наш Реутов 51
Наша Электросталь 51
ПЕВИЦА Элла Величковская 51
Новые игры 51
ПОДСЛУШАНО В СНЕЖИНСКЕ 51
Барахолка Люберцы Котельники Объявления 51
Записки Предпринимателя. 51
SaratovCash 51
БМЖN - Без Мотоцикла Жизни Nет 51
Оружейная комната/Ножи/Оружие/Отдых 51
ZASPORT 51
live bet | Прогнозы на спорт 51
Авторынок Салехард, Лабытнанги, Харп 51
Барахолка Балашиха Железнодорожный Объявления 51
Нетипичный Наро-Фоминск 51
Банкетный зал, ресторан Vinity - Винити 51
Независимое искусство 51
Ярмарка рукоделия.Разноглазые кошки. 51
Мамы Новосибирска. Афиша для мам. 51
Типичное Бутово ™ 51
Сауна и Баня «Фараон» Пермь - №1 по отзывам! 51
Эксперт по выводу компаний на позицию Лидера. 51
Услышано в Снежинске 51
Ведьмы и Колдуны 51
ЧБ 51
Салехард | Доска объявлений №1 51
XSA SHOP 51
Славянское Наследие ☼ 51
Объявления недвижимость Салехард Лабытнанги 51
OBOB TV 51

Послесловие¶

Скрипт сбора данных -¶

С помощью данного скрипта можно спарсить сообщество в 25к примерно за неделю, 20к будут с открытыми профилями. Для работы скрипта нужно ссылка на группу вк. Скрипт соберет информацию об участниках. Это может быть и сообщество, и мероприятие.
Какие данные мы получаем:

  • основную информацию об участниках сообщества: пол, имя, город, дата рождения, университет, место работы и т.д. (здесь много пропусков, т.к. не все указывают все, но например город есть почти у всех)
  • кто с кем дружит, кто на кого подписан
  • подписки участников на группы, общую информацию о топ-n группах(тематика, название...)
  • последние 100 постов участников, лайки на них
  • последние 100 постов сообщества вк, лайки к ним

Что можно сделать еще¶

  • разбить тексты постов людей на кластеры и посмотреть самы популярные, самые популярные внутри сообщества(инструменты: carrot2, rubert + sklearn)
  • найти тональность постов(положительная, нейтральная, негативная), посмотреть аггрегированную тональность кластеров текстов, сравнить все это между несколькими подгруппами людей
  • выбрать другой алгоритм разбиения участников на подгруппы, который сможет учитвать не только связи между участниками, но и другими характеристиками(node2vec + sklearn), или просто другой алгоритм(в посте испольлзуется louvain, можно применить Leiden, Walktrap и еще десятки из библиотеки cdlib)
  • сделать предсказание ребер на основе общих друзей например, 2 учаснтика сообщества не дружат между собой, но у них 30 общих друзей, можно посчитать вероятность того, что они дружат и положить это значение в вес ребра
  • сделать граф, основанный на лайках, а не дружбе. Может даже совместить, еще и вк группы засунуть, но интерпретировать будет сложнее.
  • собрать информацию о группах не по подпискам а по лайкам, но это займет времени в десятки раз больше, вероятно